SoSe2021
Bildquelle links: reality Baum von www.pixabay.com (CCO 1.0); rechts: stick man graph von J. Nielsen (masterthesis
“Conversion of Graphs to Polygonal Meshes”, Technical University Copenhagen), www.tchami.com
→ Wir beurteilen das Modell auf der Basis, wie wahrscheinlich die Daten wären, wenn das Modell korrekt wäre.
| Antwortvariable Y | Erklärende Variable X | Modell | R Funktion |
|---|---|---|---|
| Kontinuierlich | Kontinuierlich | Lineare Regression | lm() |
| Kontinuierlich | Kategorial | Varianzanalyse (ANOVA) | aov() |
| Kontinuierlich | Kontinuierlich & Kategorial | Kovarianzanalyse (ANCOVA) | lm() |
| Binärdaten (nominal) | Kontinuierlich & Kategorial | Logistische Regression (binary logistic analysis) | glm() |
| Proportionen | Kontinuierlich & Kategorial | Logistische Regression | glm() |
| Häufigkeiten | Kontinuierlich & Kategorial | Log-lineare Modelle (z.B. Poisson Regression) | glm() |
Es gibt darüberhinaus noch viel mehr Verfahren…
\[Y = constant + coefficient * X_{1} + coefficient2 * X_{1} ... + error\]
Y: erklärte Variable (‘response’)
\(X_{1}, X_{2}\): erklärende Variablen (‘predictor’)
constant: Mittelwert oder Schnittpunkt der Y-Achse (Wert, wenn alle x-Werte gleich null sind)
coefficient: Regressionssteigung oder Behandlungseffekte
error: Teil von Y, der nicht erklärt bzw. vorhergesagt wird durch X
Der Begriff linear bezieht sich auf die lineare Kombination von Parametern, nicht die Form der Verteilung, d.h. Parameter dürfen nicht im Exponenten auftreten oder durch/mit einem anderen Parameter dividiert/multipliziert werden.
\[Y_{i} = \alpha + \beta_{1}*X_{i} + \beta_{2}*X_{i}^2 + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*(X_{i}*W_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*log(X_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*exp(X_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*sin(X_{i}) + \epsilon_{i}\]
p
Es sollten die Residuen routinemäßig geplottet werden gegen
Die Schritte bei der statistischen Analyse von Daten sind immer die gleichen und sollten immer in der folgenden Reihenfolge durchgeführt werden. Hier ein Beispiel für die ‘backward selection’-Methode:
summary() → gibt die Parameterschätzungen und Standardfehler aus lm Objekten und ANOVA-Tabellen aus aov Objekten zurück (eigentliche Funktionen: summary.lm() und summary.aov())plot() → erstellt Diagnostikdiagramme zur Modellprüfung (residuals against fitted values, normality checks, influence tests, etc.)anova() → nützliche Funktion, um verschiedene Modelle zu vergleichen und ANOVA-Tabellen aus lm Objekten zu erstellen.update() → wird verwendet, um die letzte Modellanpassung zu modifizieren; dies spart sowohl Tipparbeit als auch Rechenzeit.coef() → gibt die Koeffizienten (geschätzte Parameter) aus dem Modell zurück.fitted() → gibt die angepassten Werte zurück, die vom Modell für die Werte der erklärenden Variablen vorhergesagt werdenresid() → gibt die Residuen (die Differenzen zwischen gemessenen und vorhergesagten Werten von y) zurück.predict() → verwendet Informationen aus dem angepassten Modell, um eine Glättungsfunktion für die Darstellung einer Linie im Streudiagramm zu erstellen. Der Funktion kann ein dataframe übergeben (Argument newdata) mit Sequenzen von Werten aller X Vaiablen, die im Modell sind.Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License except for the borrowed and mentioned with proper source: statements.
Image on title and end slide: Section of an infrared satellite image showing the Larsen C ice shelf on the Antarctic Peninsula - USGS/NASA Landsat: A Crack of Light in the Polar Dark, Landsat 8 - TIRS, June 17, 2017 (under CC0 license)